GeneDock HG Somatic 手册

Part 1 产品介绍

1. GeneDock HG Somatic 人全基因组体细胞突变标准化分析服务用途

全基因组测序 (Whole genome sequencing，WGS) 是指使用二代测序技术 (NGS) 对基因组的所有区域进行测序。相比于全外显子和捕获区域测序，全基因组可以获得更全面的信息，发现非编码区域的异常。成对样本 (matched samples) 可以鉴定出体细胞突变 (somatic mutations)，常用于肿瘤研究领域。

GeneDock HG Somatic流程使用BWA、Sentieon软件TNseq，对全基因组成对测序样本数据，进行从fastq到vcf的分析（包含SNV和INDEL）。Sentieon TNseq是一款类似于GATK MuTect1/MuTect2的软件，包括TNsnv和TNhaplotyper，其中TNsnv与GATK MuTect1一致，可用于鉴定SNV，TNhaplotyper与GATK MuTect2一致，可用于鉴定SNV和INDEL。

GeneDock HG Somatic包括2个具体流程：

1）WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef：采用Sentieon软件TNsnv检测SNV（与MuTect1一致），Strelka软件检测INDEL。

2）WGS_Somatic_BWA-Sentieon2_ContainRef：采用Sentieon软件TNhaplotyper同时检测SNV和INDEL（与MuTect2一致）。

GeneDock的生信团队与数据计算团队共同努力，在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化，并对分析关键步骤做了分布式处理，在保证同GATK MuTect1/MuTect2鉴定结果准确度一致的基础上，大大降低了用户的分析成本，缩短了运行时间。

Benchmark测试结果(http://biorxiv.org/content/biorxiv/early/2017/03/10/115717.full.pdf)显示，Sentieon软件TNseq在保证同GATK MuTect1/MuTect2软件鉴定结果准确度一致的基础上，比GATK MuTect1/MuTect2速度提升了约10倍（相同的硬件设备）。

2. 整体步骤：

整体可分为3个部分：

1. 序列比对（Mapping）：使用trimmomatic软件进行前处理，使用bwa mem进行比对，使用samtools对bam文件进行排序、格式转换等操作。

2. Bam文件前处理（Bam processing）：使用Sentieon软件对重复序列进行处理（markdup/rmdup）和Base quality score recalibration（bqsr）。

3. SNV和INDEL检测（SNP and INDEL calling）：1）WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef流程：使用Sentieon软件的TNsnv检测SNV变异，Strelka软件检测INDEL变异；2）WGS_Somatic_BWA-Sentieon2_ContainRef流程：使用Sentieon软件的TNhaplotyper对SNV和INDEL同时进行检测。

4. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计：原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例，以及质量值和GC含量图等。比对后序列 (BAM)的统计包括：靶标区域所占比例、平均测序深度、重复区域比例、比对率、不同X数reads所占比例，以及目标区域测序深度图等，具体图表格式可以参考GeneDock 博客。

流程中步骤与GATK MuTect1的Best Practices或GATK MuTect2的Best Practices基本一致。

关于其中使用的knowsites输入文件也与GATK软件一致，可以参考这个链接。

【运行时间】

1）WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef流程：

2017年4月25日biolam_105测试80GB * 2 + 40GB * 2 的fastq.gz文件。深圳域：9小时。

2）WGS_Somatic_BWA-Sentieon2_ContainRef流程：

2017年3月11日genedock_wym测试80GB * 2 + 40GB * 2 的fastq.gz文件。北京域：8.5小时。

由于全基因组成对样本原始数据较大，因此给数据分析带来了很大的挑战。
本工作流利用“fastq按行拆分、bam按染色体分组拆分”的原理，可以大大缩短运行时间。
本流程中bam文件的16个染色体分组，具体情况如下（以hg19的染色体名为例）：

第0组：chr1
第1组：chr2
第2组：chr3
第3组：chr4
第4组：chr5
第5组：chr6
第6组：chr7
第7组：chr8
第8组：chr9和chr10
第9组：chr11和chr12
第10组：chr13和chr14
第11组：chr15和chr16
第12组：chr17和chr18
第13组：chr19和chr20
第14组：chr21和chr22
第15组：chrX、chrY和chrM
同时输出unmapped bam文件

【准确性评估】

本流程步骤与GATK MuTect1/MuTect2的best practice基本一致，准确性评估请参考这个链接。

【注意事项】

本流程只适用于成对样本。
本流程需要是双端测序。
流程中会使用GATK官方推荐的reference、knowsites输入文件，下载自Broad的FTP。
如果输入fq文件是多个lane的，请注意read1和read2的顺序要一一对应。

关于此流程有任何问题，请您随时与我们的工程师联系。

Part 2 GeneDock HG Somatic操作教程

1.查看工作流详情：进入后台后，点击左侧工具栏中的工作流，在我的工作流标签中选择public，可以看到WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef_stat和WGS_Somatic_BWA-Sentieon2_ContainRef_stat工作流，点击“详情”，查看该工作流的介绍，包括：【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等（如图1,图2）；

hg_somatic-2-1

（图1）

（图2）

2.运行工作流：熟悉工作流的信息后，重复第一步骤，点击“运行”，进入到运行工作流界面（如图3）,为了方便后续查找任务，可以修改“任务名称”；

hg_somatic-2-3

（图3）

3.设置输入文件：需要输入1）Strelka config文件（仅：WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef流程）；2）adaptor序列文件；3）tumor双端测序结果文件；4）normal双端测序结果文件；5）cosmic文件（默认b37参考文件）。点击输入文件条中对应的文件夹符号，可以看到对应的数据选择框，其中最上边可以看到对应的文件格式（如fq,fastq,gz），在您需要的文件前面操作栏选择“选取”，然后就可在输入文件条中看到选定的输入文件，所有输入文件都选择完毕后，点击“下一步”（如图4、图5）；

hg_somatic-2-4

（图4）

（图5）

4.设置输出文件：输出文件已经自动加载默认路径和文件名称，可以按照项目的目录情况自行修改, 如无需要可以不做修改，所有输出文件都选择完毕后，点击“下一步”（如图6）；

hg_somatic-2-6

（图6）

5.设置参数：系统中会绑定默认参数，且会标明参数属于的工具名称，如有需要修改参数，将鼠标放置参数名称上可查看参数的说明，选择参数后可直接修改（如图7）；
hg_somatic-2-7

（图7）

6.预览及运行工作流：填写好参数后，最后可以点击预览，确认前面的所有设置，确认好后点击‘运行任务’，开始运行工作流（如图8）；

hg_somatic-2-8

（图8）

7.查看任务：几分钟后可以点击左侧工具栏中的“任务/报告”查看相应任务的运行状态。为了方面查看任务，用户可以按照任务创建和运行状态等筛选。另外，对于不需要的任务，可以删除该任务,（如图9）。

hg_somatic-2-9

（图9）

点击所要查询的任务，可以查看“参数”，“日志”，“报告”以及“相关文件下载和预览”。点击“参数“ ，可以看到输入，输出和相关参数，（如图10）：

hg_somatic-2-10

（图10）

点击”日志“，可以看到每一步的完成状态。点击APP名称，可以看到部分输出日志，点击“下载日志”可以下载查看完整的输出日志（如图11）；

hg_somatic-2-11

（图11）

注：目前的工作流没有设置报告模板，因而报告不可查看，所以只能查看“相关文件下载和预览”。

点击“相关文件下载和预览”，可以看到任务的结果文件。对于文本文件和png等图文件，支持在线预览和下载，超过100M的文件，建议按照下文使用客户端下载（如图12）。

hg_somatic-2-12

（图12）

8.数据结果的查看和下载：点击左侧工具栏中的“数据”，选定对应的文件路径后可以看到结果文件，使用客户端进行下载（如图13）。

hg_somatic-2-13

（图13）

Part 3 参数解释

1. 工具：GD-toolkit_mapping_16-chromsome-groups-tumor/normal （共2个）

参数	软件	默认值	解释
sliding_window	Trimmomatic	4，15	Windows的size是4个碱基，其平均碱基质量小于15，则切除
leading	Trimmomatic	3	切除首端碱基质量小于3的碱基或者N
mark_short_split_hits_as_secondary	Bwa-mem	Yes	加入此参数用于将shorter split hits 标记为次优，有利于兼容 Picard、GATK
head_crop	Trimmomatic	0	切除reads开始指定数目碱基
crop	Trimmomatic	10000	保留reads到指定的长度
to_phred64	Trimmomatic	False	将碱基质量转换为pred64格式
illumina_clip	Trimmomatic	2,30,10	切除adapter序列：允许的最大mismatch数；palindrome模式下匹配碱基数阈值；simple模式下的匹配碱基数阈值
to_phred33	Trimmomatic	False	将碱基质量转换为pred33格式
read_group	Bwa-mem	sample	read group中sample名称，`@RG\tID:{{parameters.read_group}}\tSM:{{parameters.read_group}}\tPL:illumina\tLB:lib`
minlength	Trimmomatic	36	最小的reads长度
phred33	Trimmomatic	False	设置碱基的质量格式为phred33
trailing	Trimmomatic	3	切除尾端碱基质量小于指定值的碱基
refname	Bwa-mem	b37	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP

2. 工具：samtools merge tumor/normal bam（由于本流程分16份染色体且为成对样本，因此有216个bam，编号为0-15）

参数	软件	默认值	解释
sort_by_read_names	samtools merge	False	使输入的比对序列按照read的名字来排序，而不是染色体坐标
attach_rg_tag	samtools merge	False	给每个比对添加一个 RG 标签，标签的值是通过文件名来推测的
combine_PG	samtools merge	True	把 PG 标签和 colliding IDs 结合，而不是添加一个后缀去区分它们
combine_RG	samtools merge	True	把 RG 标签和 colliding IDs 结合，而不是添加一个后缀去区分它们

3. 工具：Sentieon_markdup_bqsr_ContainRef（共16个）

参数	软件	默认值	解释
knowsites_BaseRecalibrator	sentieon	dbsnp_138.b37.vcf& Mills_and_1000G_gold_standard.indels.b37.vcf& 1000G_phase1.indels.b37.vcf	Base Recalibrator步骤knowsites输入文件名称（可选hg19或者b37的相关文件，多个文件名称使用&连接）使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
rmdup	sentieon	False	默认不去重复，只标注
refname	sentieon	b37	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP
thread	sentieon	3	线程数（建议不要修改）

4.1 工具：TNsnv（共16个）

仅WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef流程

参数	软件	默认值	解释
thread	sentieon TNsnv	3	线程数（建议不要修改）
tumor_name	sentieon TNsnv	tumor	肿瘤样本名称（需要和bwa的RG一致）
knownsites_IndelRealigner	sentieon TNsnv	Mills_and_1000G_gold_standard.indels.b37.vcf& 1000G_phase1.indels.b37.vcf	knowsites输入文件名称（可选hg19或者b37的相关文件，多个文件名称使用&连接）使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
refname	sentieon TNsnv	b37	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP
normal_name	sentieon TNsnv	normal	正常样本名称（需要和bwa的RG一致）
dbsnp	sentieon TNsnv	dbsnp_138.b37.vcf	dbsnp文件名称（可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP

4.2 工具：Sentieon_TNhaplotyper_variantcalling_ContainRef（共16个）

仅WGS_Somatic_BWA-Sentieon2_ContainRef流程

参数	软件	默认值	解释
thread	sentieon TNsnv	3	线程数（建议不要修改）
tumor_name	sentieon TNsnv	tumor	肿瘤样本名称（需要和bwa的RG一致）
knownsites_IndelRealigner	sentieon TNsnv	Mills_and_1000G_gold_standard.indels.b37.vcf& 1000G_phase1.indels.b37.vcf	knowsites输入文件名称（可选hg19或者b37的相关文件，多个文件名称使用&连接）使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
refname	sentieon TNsnv	b37	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP
normal_name	sentieon TNsnv	normal	正常样本名称（需要和bwa的RG一致）
dbsnp	sentieon TNsnv	dbsnp_138.b37.vcf	dbsnp文件名称（可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP